查看原文
其他

语言复杂网络研究——现状与前瞻

陈衡 刘海涛 计量语言学
2024-09-03

语言复杂网络研究——现状与前瞻

陈衡 广东外语外贸大学

刘海涛 浙江大学 


摘    要:

语言是一种复杂适应系统,而复杂网络是对其进行实证考察与分析的利器。语言复杂网络具有心理现实性与生物神经基础,它抓住了语言系统的关键特性——动态性——进行网络构建,并基于真实文本进行实证分析,揭示了语言系统的复杂性特征,以及语言运行与发展过程中的结构特征、路径与机制。文从理论、方法、议题等方面分析总结了语言复杂网络研究的最新成果、进展学科推动作用,最后对未来的发展方向作了展望。

关键词:

语言网络;复杂网络;复杂适应系统;动态性;计量语言学 

文献来源:陈衡,刘海涛.语言复杂网络研究——现状与前瞻[J].中国外语,2023,20(04):54-60.DOI:10.13564/j.cnki.issn.1672-9382.2023.04.012.


01

引言


      自现代语言学诞生以来,语言研究中一直贯穿着网络思想。所谓网络,一般是指由若干节点及连接节点的边构成的图。这种图一般用来描述系统中各元素之间的关系,即用节点代表系统的基本组成元素,用连边代表系统中各元素之间的交互关系。网络思想在语言学中广泛存在,从索绪尔的语言“连带关系”,到叶姆斯列夫的语言“关系系统”,再到美国语言学家兰姆创建的“层次语法”,以至哈德森的“词语法”理论,语言是一种网络的观点愈显清晰(Mehler et al.,2016)。然而,由于缺乏大规模语料数据和科学量化方法及工具的支撑,以上语言网络思想还暂时停留在一种比较朴素的阶段,因此只能算作一种“隐喻”(刘海涛,2011)。

      20 世纪末,以复杂网络研究为标志的现代网络科学出现,极大地推动了复杂性科学的发展,并在社会网络、神经网络、生物网络等众多交叉学科领域大放异彩(何大韧等,2009)。而在语言学中,Ferrer-i-Cancho & Solé(2001)最早开启了词汇复杂网络的研究。随后,语言复杂网络研究逐渐兴盛,并在多个分支领域涌现出创新成果(Cong & Liu,2014),从而为人类语言系统研究打开了复杂性科学时代的大门。本文将深入阐述语言复杂网络的理论内涵和研究方法,爬梳已有研究中的几个重要议题及其研究现状,最后对其未来的发展加以展望。


02

语言复杂网络的理论内涵和研究方法


      语言复杂网络属于语言学、网络科学、计算认知科学及复杂性科学等学科的交叉研究,兼具理论视角与方法论,具有典型的“跨学科”特质。本节首先阐释语言复杂网络的理论内涵,然后剖析语言网络的类型及构建方法,简述其分析维度及可用软件工具等。

2.1 理论内涵

      语言复杂网络的兴起直接得益于复杂性科学研究中复杂网络方向的崛起。在复杂网络科学诞生之前,网络科学主要以规则网络和随机网络为研究对象,而随着20 世纪末网络小世界性和无标度性两个重要特性的发现,复杂网络研究渐成主流(何大韧等,2009)。接着人们发现现实中的很多网络如生态网络、社交网络等都是复杂网络,具有小世界和无标度等特性。而语言虽然也被认为是一种复杂系统,但学界一直未能对其复杂性特征进行科学量化分析或预测。Ferrer-i-Cancho & Solé(2001)发现语言网络也具有小世界、无标度等特性,因此它也是一种复杂网络。这就增进了人们对语言系统复杂性的客观认识。

      复杂网络科学的诞生催化了语言研究中网络思想的成熟。在语言学本体研究中,基于依存句法理论建设的树库其实已经可以直接转换为依存句法网络,即变成以词为节点、以依存句法关系为连接边的图(Cong & Liu,2014)。而在语言认知科学研究中,相较于传统以描述为主的“联结主义”朴素网络观,复杂网络科学具有反映人类认知系统复杂性、可处理大规模数据等显著优势,从而揭示出语言运行与发展过程中的结构特征、路径与机制并被用于人工智能、言语治疗等现实应用中(林枫,2021)。可见,语言复杂网络的出现可以作为语言研究中网络思想成熟的标志。

      语言复杂网络理论源自复杂性科学理论。该理论认为,系统中的要素是具有适应性的主体(agent),它能够与环境以及其他主体进行互动,从而派生出整个宏观系统的进化,例如新层次的产生、分化与多样性的出现等(霍兰,2000)。在语言网络中,系统要素一般是语言单位(如词),连边一般代表语言要素间的关系,如句法关系、语义关系等。语言是一个复杂适应系统(王士元,2006),而语言复杂网络能够描写并解释其复杂性与适应性:共时层面看,语言网络的复杂性体现为一种微观元素互动引起的宏观系统涌现特性,如小世界性、无标度性;从历时层面看,语言网络的系统要素及关系一直处于动态演变中,并且不同构造的网络会表现出不同的动力学特性或演化机制(Solé et al.,2010)。因此,语言复杂网络分析不仅关注语言结构特征,更关注其动态特性。Liu(2018)提出的“人驱复杂适应系统”认为,语言不仅是一个符号系统,而且还是一个由人驱动的复杂适应系统,因此,在语言研究中要重视人的认知能力及环境的影响,不仅要探求系统的构成要素,更要探求要素间的动态交互关系。这就为语言复杂网络理论增添了新的内涵。

      一般来说,语言复杂网络作为一门交叉学科,主要研究利用复杂网络特性描述语言现象,进而建立这些现象的分析或预测模型,并利用复杂网络的静态特性和动力学特性来解释这些现象,具体包括语言网络数据测量、结构分析、模型构建、网络预测与控制、可视化等内容(Mehler et al.,2016)。在语言复杂网络研究中,也有一些从交叉学科研究中产生的子理论可借鉴。这里我们主要介绍与语言研究密切相关的三个子理论:相变论、激活- 扩散论和偏好依附论。

      相变(phase change)是指复杂系统在临界状态时的一种突变,相变发生后系统会涌现出新的特性。例如,Corominas-Murtra etal.(2009)选取了英语母语背景幼龄儿童的产出语料,在对语料进行依存句法标注后构建了不同月份时段的依存句法网络。句法网络参数分析表明,儿童大约在24 个月时开始从之前的“树”状句法网络突变为复杂句法网络,具有了成人句法网络的小世界、无标度等涌现特性,这就是一种句法相变现象。

      激活- 扩散(stimulus-spreading)是一种语义网络模型,节点代表概念,连边代表概念间的语义联系。语义网络加工是网络得到的激活量从一个概念沿着连边向另一个概念传递的过程。因此,与被激活节点相邻越近的节点其接收激活的速度越快,强度也越大,但随着距离增大,这一过程将逐渐减弱。而小世界性是语言网络的动力学特性,能够促进对概念节点的高效搜索、提取与加工(Vitevitch,2008)。利用这一特性,研究者可以探究语义记忆相关问题,如词语遗忘、语义提取困难等。

      偏好依附(preferential attachment),或称择优连接,是一种复杂网络演化机制,是指网络中的新增节点更倾向于连接度较大的节点,即中心节点。语言网络具有无标度性,节点度呈幂律分布,其中中心节点(一般为虚词)发挥了重要的网络联通作用(Ibbotson et al.,2019)。利用这一特性,研究者可以考察语言习得过程和机制问题。

      语言复杂网络理论具有坚实的心理现实性与大脑生物神经基础(Malik-Moraleda et al.,2022),除了在语言学本体研究中的运用,它还在自然语言处理、语言认知与学习、特殊人群语言治疗等交叉研究领域有着十分广泛且深入的应用。相信随着学科交叉研究的深入,其理论内涵也将愈加丰富。


2.2 研究方法

      语言复杂网络研究实操的第一步是测量数据并构建网络。从材料来源上看,语言网络可分为静态和动态两类:静态网络一般基于词典或静态数据库,如构词网络、近义词网络;动态网络一般基于真实文本语料或实验产出语料,如依存句法网络、词汇联想网络(冯学芳,2014)。从语言学角度看,语言网络有语音网络、构词网络、词汇网络、句法网络等子系统类型,近年也开始出现多层语言网络,如语音- 字形网络、语音- 语义网络等(Castro etal.,2020)。语言网络从连边有无方向和权重看,又有无向和有向、无权和加权之分,有向网络和加权网络能够提供更多的语言信息,如依存方向、共现频率等。

      待语言网络构建完毕,研究者可以利用Pajek 等软件工具计算并获取网络的静态结构特征数据,目前语言研究中使用较多的指标有网络密度、节点中心性、平均最小路径、聚集系数、模块度等(刘海涛,2017)。不同指标能够反映语言系统不同层面的结构属性,因此,在具体研究设计中,研究者可根据不同研究目的选取不同的指标。一般来说,我们可以从微观、中观和宏观三个维度来对语言网络进行结构特征分析。

      在微观层面,中心度量能够量化节点或边的重要性, 其中又以度中心性(degreecentrality)最为常用。度,又称连通度,表示一个节点所连接的边的数量。在依存句法网络中,一个节点的度通常被解读为该节点的“配价”,表示该词的句法搭配能力(Cong &Liu,2014)。度较大的节点一般被称为网络中心节点(Hubs),它在语言网络中发挥着重要作用。例如,陈芯莹和刘海涛(2011)考察了汉语句法网络的中心节点,发现功能词“的、了、在”对于汉语句法结构的层级组织起到了关键作用。

      在中观层面,网络模块度(modularity)是一种常用的衡量网络社团结构强度的方法。语言网络内部的结构通常可以被分为不同的社团模块,同一模块内的节点连接很紧密,而模块与模块之间的连接较为稀疏,因此,不同模块之间有着较为清晰的界限(Kovács et al.,2021)。Ellis et al.(2016)基于二语产出语料,考察了学习者在外语学习过程中产生的不同词群及论元结构模块,发现模块度越高,语言网络的概念体系越丰富、复杂。Ibbotson etal.(2019)发现社团模块是学习者学会句法结构的可靠信息源。

      在宏观层面,最重要的特性无疑是小世界性(small-worldness)与无标度性(scalefreeness)小世界网络既具有局部的高聚集性,即高聚集系数(clustering coefficient),又具有远距离上的快速连接性,即短平均路径长度(average path length)。无标度性是指网络中所有节点的度分布满足幂律定律。Ferrer-i-Cancho & Solé(2001)提出,句子中的词以一种非随机的方式交互作用,从而可以使人们以有限的语言单位创造无限的句子。该研究发现,这种基于词同现的语言网络展现出了与复杂系统相似的特性——小世界性与无标度性。这两种特性反映了语言的词汇演化规律和适应性机制。

      复杂网络科学为语言复杂网络研究提供了丰富的指标和工具,并且支持以可视化的形式呈现结果(如Gephi ②),十分便于分析。前语言复杂网络已被纳入计量语言学框架,后者可以为其提供更为一般化的语言计量研究方法流程或范式指引(参见刘海涛,2017)。


03

语言复杂网络研究议题及研究现状


      语言复杂网络作为学科交叉研究的新领域,有着十分广泛的研究议题。在语言学本体中,它可用于语言复杂性研究、语言类型研究(刘海涛,2010)、语言演化研究等(Solé etal.,2010)。在广义的应用语言学中,它可用于自然语言处理(Oliva et al.,2021)、语言认知与心理(Benham et al.,2018)、语言风格分析(Oliva et al.,2021)、语言习得(Dattneret al.,2022)、语料库与语义韵(刘建鹏、洪明,2020)、翻译(Fan & Jiang,2021)等众多领域。基于研究内容或研究思路的相似性,本节主要梳理了四类与语言学关系最为密切的议题。

(1)语言系统复杂性研究

      研究者可探究语言系统的涌现特征及其语言学原理或功能,揭示语言系统的演变规律。首先,考察语言各子系统的小世界、无标度等涌现特征及差异。一方面,从早期的字、词、短语网络(韦洛霞等,2005),到之后的句法、语义、词汇搭配网络等(Mehler et al.,2016),语言网络构建的理论性不断增强。另一方面,通过各子系统间的对比,如词同现、依存句法与语义网络对比(Liu & Cong,2014),人们对各子系统的复杂性特征也有了科学的认识。其次,探究语言网络复杂性的语言学原理或功能。Goh et al.(2018)从中观层面提出网络模体(motif)是语言系统高效运作的捷径,是语言构式涌现的内在机制。超和陈小荷(2018)通过分析不同语言的词同现网络,得出小世界性呈现“孤立语> 屈折语> 黏着语”的形态学关系。赵怿怡(2022)分析认为句法功能词能够极大提高网络联通效率。最后,探究语言系统演变规律。如Li et al.(2019)基于1 550亿词次英语语料开发了词汇历时语义网络检索软件Macroscope。之,复杂网络为我们探究语言结构模式与演变规律,特别是复杂语言结构特征的涌现提供了崭新路径。

(2)语言与文本分类研究

      利用语言复杂网络众多指标参数,可以对不同类型语言或不同语体风格文本进行分类。刘海涛(2010)构造了15 种语言的依存句法网络,并采用复杂网络工具对这些语言进行聚类分析,结果显示,通过复杂网络的主要参数可以对人类语言进行分类,其准确性与利用现代语序类型学主要指标进行分类的准确性相当。Abramov & Mehler(2011)基于11 种语言依存句法网络的分类研究验证了这一方法的可靠性。这是一种基于概率的类型学研究,它揭示了语言类型的连续性,为语言类型研究开拓了新的研究思路。而这种思路也同样适用于语体风格分类、作者身份识别(Oliva et al.,2021),以及不同类型翻译文本分类等相关领域(Fan & Jiang,2021)。以上研究说明,语言复杂网络参数能够反映出不同语境下语言使用的细微特征差异。

(3)语言认知与心理研究

      研究者可从语言认知结构表征出发,探究语言运行过程与机制,并用于语言学习与记忆、言语治疗等实践。已有研究显示,语言系统是以网络形式存储于人脑中的(Malik-Moraleda et al.,2022),而复杂网络提供了一种全新的语言认知结构表征方式,从而在语言使用与语言认知之间架起一座桥梁。在基于复杂网络的心理词汇表征上,一般以词为节点,以词汇联想关系、上下义关系等为连边。语言认知网络也是一种无标度网络,本身是一种有弹性的、健壮的网络,但在应对外界对节点的特定攻击时,无标度网络却容易迅速瓦解。因此,构建并维护语言网络关键节点十分重要,而这为特殊人群语言问题研究与治疗提供了新思路(林枫,2021)。例如,语言老化或退化问题研究、失语症病人词汇提取问题研究等(Castro et al.,2020),都显示了这一方法在语言认知与健康研究中的巨大潜力。

(4)语言习得与发展研究

      研究者可利用语言复杂网络的结构及动力学特性分析语言习得过程和发展机制,寻找高效学习的方法。例如,在母语习得中,Ibbotson et al.(2019)提出,系统微观元素互动是语言复杂性的来源,而致密社团结构的形成,特别是中心节点的出现是复杂语法结构能够被学习的关键。Dattner et al.(2022)发现儿童语言发展中存在着形态组织结构涌现现象。而在二语习得中,Meara(2016)基于词同现网络分析了二语词汇的高集聚特性,认为这一特性对程式语和语义集合的自组织形成,以及学习者对这些语言结构的习得会产生重要作用。Ellis et al.(2016)考察了二语中的“动词- 论元”构式使用情况,这本著作为使用复杂网络方法研究二语构式问题提供了范例。Jiang et al.(2019)考察了英语学习者的句法发展,发现在二语发展过程中并没有出现类似母语习得中的句法涌现现象,但从具体网络参数看,二语者的句法仍然是动态发展、阶梯式跃升的。语言复杂网络方法提供了以宏观语境为支撑的语言习得与发展研究路径。

      以上所梳理的四类议题,其实又可进一步归为两大类。第一大类,语言系统复杂性和语言/ 文本分类研究,其相似性在于,一是所用材料都是真实文本语料,二是在语言学原理上,人类语言既有共性又有个性,基于语言网络特性与参数,我们既可以考察人类语言共性如小世界性,又能基于具体参数对不同语言/ 文本进行细分。第二大类,语言认知心理和语言习得发展研究,其相似性在于都是从语言系统在人脑中的运行或加工操作出发,利用复杂网络能够表征语言动态系统的优势,来发掘语言运行机制,解决语言学习、治疗等相关实践问题。总体来说,语言复杂网络在语言动态系统表征上十分具有优势,并在各类现实语言问题解决上表现出了巨大的潜力。


04

研究前瞻


      语言复杂网络是一个十分年轻的交叉学科领域,它为人类语言研究提供了崭新的视角和方法,极大地提高了人们对语言复杂性的科学认识。然而,基于上文梳理,我们发现当前研究更多关注静态语言网络结构特征,而对语言网络的功能及动力学特性研究较少,这在一定程度上限制了其发展和应用。下文针对语言复杂网络在上述议题领域可以深入拓展的方向作一点探讨。

      在语言系统及文本分类领域,最核心的是需加强语言复杂网络自身理论建设,增强理论的系统性、解释力与预测力。目前已有研究大多是对一般复杂网络特性的验证,还缺少语言结构特征,特别是不同语言、语体风格特征本身对这些特性影响的研究。本文认为,一方面,应加强与已有语言系统概念或理论的深度整合,如构式语法、浮现语法等;另一方面,需拓宽语言复杂网络研究的外延。目前语言复杂网络研究已被纳入计量语言学框架,而协同语言学又是其中比较成熟的理论,包含许多已经过深度研究的语言结构属性特征,如长度、频率、深度、顺序等(刘海涛,2017)。以此为基础,我们可以从不同类型、语体风格的语言出发,提出一些语言网络结构特征概率分布、协同及演化关系的假设,然后运用计量语言学的一般流程与方法进行实证检验与分析。我们相信,随着语言复杂网络与计量语言学,尤其是协同语言学的深度融合,其内涵与外延都将获得较大拓展。

      在语言认知与心理领域,目前的语言认知网络研究大都是基于词汇语义或语音、字形层面的考察,如心理词汇联想网络,主要反映了词汇的聚合关系。本文认为,在这一领域无论是在研究的深度上还是广度上都需要拓展。方面,应深入考察目前采用的语音、语义相似度计算方法是否反映了个体的真实心理反应,语义网络结构在心理语言任务处理过程中是如何影响真实的生物神经网络的,语言认知网络与大脑生物神经网络的关系到底是怎样的,等等;另一方面,语言是一个多层级的系统,仅探讨词汇在大脑中的存储形式不足以让我们理解句子的意义,因此对句法机制的探讨就尤为必要。传统心理语言学研究更多基于形式语法进行考察,而在语言复杂网络研究中,依存语法能更好地契合语言单位间的关系特质。我们可以将反映人类语言普遍认知机制的“依存距离最小化”、网络中的平均路径长度等概念或指标融入语言认知网络研究中去,以探求句子层面的语言认知网络机制(刘海涛,2022)。

      在语言习得与发展领域,虽然复杂性理论运用相对较多(如复杂动态系统理论),但是复杂网络方法目前运用得还较少。本文认为可以从两大方面扩展深化研究。一方面,语言复杂网络里有很多的计量指标,如网络密度、中心性、平均路径长度等,对这些指标在语言发展与习得中所能够反映出的语言使用特征需要深入探究,并且对这些指标特征与复杂动态系统理论中的相关量化指标的异同也需要厘清。另一方面,目前已有研究大都停留在运用语言复杂网络概率性指标来区分不同二语文本阶段,尚未真正以复杂网络思想来探求语言发展与习得机制。“续”论是关于语言习得机制的理论,而语言网络方法能够与“续”论中的动态性、语境、结构启动、协同等理论或操作过程相契合(Chen,2021)。将两者深入结合能极大推动这一领域的发展。


05

结语


      语言复杂网络是一种数据驱动的语言研究方法,更是一种数字智能时代的语言研究方法。目前在外语教育面临语言智能发展带来深刻剧变与挑战的背景下,运用能够更好表征语言动态特征的复杂网络方法来深入挖掘、监测学习者的语言动态特征,并提供相应的促学资源,这对于实现高效促学外语,以及进一步构建以学习者为中心的智能化外语教育教学体系也具有积极意义。语言复杂网络本身是一个跨学科合作的成果,展望未来,我们倡导更为广泛且深入的跨学科研究或超学科研究,以共同致力于揭示人类语言系统的奥秘,产生更多的应用研究成果,让语言学真正成为数字智能时代一门领先的科学。





继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存